ARM体系架构

2024-05-20 04:08| 来源: 网络整理| 查看: 265

一、前言

相信很多开发人员都听说过 cache，但有可能对其不甚了解。毕竟在软件开发中很少会接触到这个概念，它的运作完全由 CPU 来完成，一般情况下不需要我们人员去干预。本文就来借助《ARM嵌入式系统开发》一书进行笔记整理，简单地讲述一下 cache 的相关内容，希望能够帮助到各位读者。

二、正文

首先，我们先需要明确为什么需要cache？回答： CPU 的运行速度比内存的存储速度好快上许多，这样会导致 CPU 需要等待内存完成处理后才能继续下一道指令，而 cache 是为了能够解决这一现象，cache 的处理速度跟得上 CPU，但它的存储空间非常小。将 cache 作为中间缓存，CPU 可以不用等待内存，而 cache 可以在接收 CPU 的数据后，在往后的时间将这些数据放进内存。其次是 cache的大致原理是什么？回答：在程序运行过程中，我们会有一个局部性原理。这里不展开说明。它的大致意思就是程序会频繁访问局部内存。 cache 是 CPU硬件自动通过内存地址来找到对应的数据的。如果地址变换频繁，那么 cache 中存放的数据就会频繁改变。如果程序频繁访问局部数据，那么 cache 中的数据改变就不会很大。因而命中率就会提高，从而 CPU 的运行效率也会提升。

2.1 计算机内存存储层次

如下图所示：

计算机内存存储层次

在寄存器和内存之间存在一道缓冲，分别是 cache 和写缓冲。

cache：高速片上存储阵列，用于临时装载慢速存储器中的程序和代码。写缓冲器：一个容量很小的FIFO缓冲器，主要用于对cache中写入内存的数据提供缓冲

根据 cache 和 MMU(内存管理单元) 的关系，可以将 cache 分为以下类型：

逻辑cache：位于处理器和 MMU 之间。处理器可以直接通过逻辑cache 访问数据，不需要通过 MMU。也被称为虚拟cache

逻辑cache

物理cache：位于 MMU 和内存之间。当处理器访问内存时，MMU 必须把虚拟地址转换为物理地址，这样 cache 才能向 CPU 提供数据

物理canche

2.2 cache结构

CPU 在现阶段分为冯诺依曼结构和哈佛结构。cache 也分为 2 种结构分别支持这 2 种 CPU结构：

冯诺依曼cache：数据和指令共用 cache，又被称为混合cache 、统一cache 哈佛cache：数据和指令分别有不同的 cache，分为 Icache(指令cache) 和 Dcache(数据cache)。Icache 只存储指令，Dcache 只存储数据。

整个 cache 分为 cache控制器和 cache存储器

cache控制器：通过使用处理器提供的地址，选择 cache存储器中的内容 cache存储器：专用的存储器阵列，其访问单元称为 cache行。写缓冲器：容量非常小的高速FIFO存储缓冲器，用来临时存放处理器将要写入内存中的数据。 2.2.1 cache存储器

如下图：

cache存储器结构

cache行分为以下 3 个部分：

目录存储段：记录每个 cache行在内存的位置，因为 cache存储器必须知道每个 cache行所对应的内存位置。对应图中的 cache标签。状态信息段：对应于图中的有效位和脏位。有效位：用来标记当前 cache行是有效的，即该 cache行中包含从内存中获取的数据，并可以为 CPU 所用。脏位：用来标记当前 cache行中的数据与内存中对应地址的数据是否一致数据项段：用于存储内存对应地址的数据。一个数据项大小为8bit

注意：每个 cache 的地址分段长度是不同的，所以图中没有给出对应的位域

2.2.3 cache控制器

cache控制器可以将内存中的数据或代码自动复制到 cache存储器中，也就是能够在软件不为所知的情况下自动完成搬运工作。 cache控制器的工作流程如下：

cache控制器通过组索引在 cache存储器中确定可能所要求的代码或数据的 cache行的位置。然后通过 cache标签和状态位来确定数据的实际存储位置。 cache控制器检查有效位，确定该 cache行当前是否处于活动状态，并且将请求地址上的标签和 cache标签比较。如果 cache行当前是活动的，并且标签域与 cache标签的值也相同，则 cache命中(hit)，否则，cache失效(miss) 在 cache失效的情况下，cache控制器从内存中复制整个 cache行到 cache储存器中。这个复制过程称为 cache行填充。在 cache命中时，cache控制器直接从 cache存储器为处理器提供数据或代码。cache控制器使用数据索引在 cache行中选择命中的代码或数据，并将其提供给处理器。 2.3 cache与内存的关系

前面讲过 cache 是通过内存地址进行数据索引的，那么就存在一种从内存到cache行的映射。

2.3.1 直接映射cache

这种映射关系比较简单，内存中的每个地址都对应 cache存储器中唯一的一行。举个例子，假设一个4K大小的cache，前面提到 2 点，即一个数据8bit 和一个cache行有16个数据数据项，那么可以计算出一共有 256 个cache行。并且该 cache 的索引规则为 0-3bit为数据索引(刚好可以索引16个数据项)，4-11bit为组索引。有 0x00010824 和 0x00020824 这 2 个地址，那么可以发现这 2 个地址对应的 cache行是同一个。

可以通过将内存地址中的标签域进行比较，就可以确定存储的是 0x00010824 的数据还是 0x00020824 的数据。

当想要从 cache存储器中读取 0x00010824 的数据，但 cache存储器中存放的数据是地址 0x00020824 时，会发生 cache行填充。此时 cache控制器可以从内存中取出数据向 cache 中搬运的同时，也将数据传送给处理器，该过程称为数据流注(data stream)。数据流注允许处理器一边执行程序，一般向相应的 cache行搬运剩余的数据和代码。

如果此时存放 0x00020824 数据的 cache行的有效位为 1(即该cache行有效)，同时内存中地址 0x00020824 与 cache行中的不同。那么这个过程也称为替换。

cache替换会将 cache行中的数据写入内存的对应地址中，并删除 cache行的原本内容，替换为新地址的数据。

直接映射cache 的缺点是会导致 cache行频繁置换，即 cache存储器中同一位置的软件冲突，这称为 cache颠簸(thrashing)

2.3.2 组相联cache 2.3.2.1 组相联cache结构

前面讲到了直接映射cache 的缺点，那么组相联cache 就是用于解决该问题。组相联cache 将 cache存储器分成了一些相同容量的小单元，称职为路(way)。以前面的 4Kcache 为例子，一共过来 256个cache行，现在分成 4路，那么每路有 64个cache行如下图所示：

多路cache

在组相联cache 中，每一路都有相同组索引的cache行，所以一个组索引对应多个 cache行。组索引相同的 4个cache行被称为处于同一组，这就是组索引命名的由来。此时这 4个cache行也被称为组相联的。这就是组索引命名的由来，如下图所示：

同组cache行

内存中的代码或数据在不影响程序执行的情况下会被分配到任一路中。同时同一组cache行的数据具有排他性，可以防止同样的数据被重复放在同组内的不同cache行中。

使用组相联cache，我们内存映射到 cache 的大小被缩小了4倍，而同一个 cache行被替换的概率减小为原来的 1/4，所以组相联以大小为代价来解决 cache颠簸。

2.3.2.2 CAM

假设在 64路组相联的情况下，给出一个地址，那么这个地址的标签域就要被比较 64次才有可能找出正确的 cache行，毕竟谁也不知道该地址的数据被藏在哪个 cache行中。所以这个时候就有硬件内容寻址存储器CAM(Content Addressable Memory)。在本例中 cache一共是64路cache，每路cache4个cache行，此时 CAM的数量为4。 CAM 的工作流程如下：

地址的标签部分作为 4个CAM 的输入，每个 CAM 将输入标签与同组内的64个cache行进行比较。如果发现配，则数据由该 cache存储器提供，否则将产生失效信号(miss) 使用组索引域来选择 4个CAM 中的一个再通过数据索引部分找到正确的数据。 2.3.3 cache指标命中率= $\frac{cache命中率}{存储器请求次数}\times100\%$ 失效率= $\frac{cache是失效率}{存储器请求次数}\times100\%$ 命中时间：指处理器访问 cache 中数据所需要的时间失效开销：指处理器从内存中装载一个 cache行数据到 cache 所需要的时间。

一般情况下有 1=命中率 + 失效率。

2.4 cache策略

cache策略分一下 3 种，每种策略都是应用于不同的操作：

写策略：该策略决定了处理器执行写操作时数据存放的位置替换策略：在 cache失效的情况下，决定选择被替换到内存的 cache行分配策略：在 cache失效的情况下，决定 cache控制器分配 cache行的时机 2.4.1 写策略

写策略分为 2 种：

直写法：该策略会使处理器写入 cache 时，将同时修改 cache 和内存中的内容，保证 cache 和内存的数据一致性。回写法：该策略会使处理器写入 cache 时，不会立即同步修改内存数据。这样可能会导致 cache 和内存的数据不是一致的。

下面说说回写法的如何把数据写入内存：

当 cache控制器向 cache存储器中的某一行写入数据时，会将脏位设置为 1。如果处理器访问该 cache行，通过脏位的状态可以知道该 cache行的数据是否含有内存中没有的数据。如果 cache控制器要将一个脏位为1 的 cache行替换出 cache存储器，那么该 cache行的数据会自动写到内存中去，以保证数据不会在内存中丢失。

当程序频繁使用某些临时的局部变量时，回写法优于直写法

2.4.2 替换策略

在 cache失效时，cache控制器必须从当前有效的组中选择一个 cache行来存储新的数据。被选中的 cacha行称为丢弃者(victim)。如果丢弃者的脏位为 1，则在被写入新数据前会把原来的数据写入内存。选择和替换的过程称为淘汰

替换策略就是如何在一个组内选择 cache行来写入新的数据，一般有下面几种替换策略：

轮转法(循环替换)：该策略简单地将当前分配 cache行的下一行作为丢弃者。该策略采用的选择算法是使用连续加1的丢弃计数器，该计数器在每一次 cache控制器分配新的 cache行时加 1。当达到最大值时则复位为设定好的起始值伪随机替换法：该策略随机地选出一个 cache行替换出去。该算法使用了非连续增加的丢弃计数器，控制器随机产生一个增加值，使用该增加值加到丢弃计数器上。当达到最大值时则复位为设定好的起始值最近最少使用法：该策略记录 cache行的使用情况，并将近期内最长时间没被访问过的 cache行替换掉。cortex-A15 以上支持该策略。

一般来说，轮转法有更好的可预测性，但是当存储器访问发生一些小的变化时有可能造成性能上较大的变化。

书中使用了一个例子来说明轮转法的缺点，笔者本来想复现代码，但发现手上的开发板的策略只支持伪随机法，无法设置策略、

2.4.3 分配策略

按照笔者的理解，分配策略是指 cache失效在什么条件下需要找 cache行来替换。一般情况下有下面 2 种策略：

读操作分配(read-allocate)：如果 cache失效时，如果此次操作是对内存进行读操作，此时要找出 cache行进行替换。如果此次操作是对内存进行写操作，那么则不找出 cache行进行替换

写/读操作分配(read-allocate)：如果 cache失效时，无论此次的操作是对存储器进行读操作还是写，都要找出 cache行进行替换。

2.5 cache架构 2.5.1 cache架构基本信息

前面我们讲了 cache 的基本信息，都是基于单个 cache 来说的。但是在 ARM 的 A系列核心上，cache架构是具有多个层次的，其架构图如下：

cache架构

如图所示，每一个 CPU核上都有 Icache 和 Dcache(我们一般将这 2 种 cache 称为 L1 cache)，再往下一级就是 L2 cache。每个 CPU核都有自己的 L1 cache，往下再共享L2 cache。一般来说，L1 cache 的大小在 16KB-32KB，而 L2 cache 的大小在 256KB 以上。

按照图中所示，我们可以将其存储层次分为 3 层：

L1 cache L2 cahce memory

通常来说，越接近 CPU 的存储层次，其访问速度越快。

2.5.2 VIPT

我们前面讲到访问 cache 的地址会被拆分为标签、组索引、数据索引。但是并没有说明这个地址是物理地址还是虚拟地址。

在现在嵌入式linux 系统中，大部分都有 MMU 来管理虚拟地址，以支持进程特性。如果系统使用虚拟地址，那么在访问 cache 时会出现以下问题：

如果两个进程的虚拟地址正好相同，则会出现虚地址访问cache冲突的情况 cache访问的时候，需要先将虚拟地址经过TLB抓换为物理地址，会造成性能损失将虚拟地址转换为物理地址时，需要将cache中内容清空

为了解决上面的问题，ARM 使用了另一种方案来访问 cache。即 virtual index physical tag(VIPT)，也就是说使用虚拟地址的组索引和物理地址的标签。

其步骤如下：

访问 TLB，将虚拟地址转换为物理地址。与此同时，利用虚拟地址中的组索引访问cache，获取取出同一组内所有的cache行信息假设 TLB 和 cache 都命中，则利用步骤1 得到的物理地址中的标签来找出确定 cache行。 2.5.3 PoC和PoU

前面说到 cache 是有多个层次的，最多的 ARMv8 可以支持 L1-L7 cache，再加上内存。一共 8 个存储层次。随着 cache层次的增加，cache硬件也会越来越复杂，其管理难度也随机上升。

cache汇编指令操作如下：

清理(clean)：清理cache 会将 cache 中的脏数据写入内存。清除(Invalidating)：清除cache 会直接将 cache 中的数据复位，一般来讲是有效位置0。锁定：锁定 cache数据不被修改

当我们需清理多层次cache 时，这时就有一个问题：如何保证多个存储层次层次的一致性？前面讲过 cache 会根据脏位来考虑是否将 cache数据写入内存。这看起来很简单，但是因为只简到了 1个层次的cache。如果多存储层次，高存储层次中包含了部分下一级存储层次的内容。此时维护数据一致性变得复杂了。例如：当要清理某个地址对应的 cache行时，我们可以假设有下面 3 种操作层次：

仅仅操作 L1 覆盖L1和L2 覆盖L1-L3中对应的cache行

按照笔者的理解，为了明确操作的层次，ARM 定义了 2 个概念来解决歧义：

Point of unification(Pou)：以一个执行了 cache操作指令的 PE(Process Element，可以理解过逻辑核心)为出发点。该 PE 需要透过各层次cache 来访问内存。假设该操作到某个存储层次为止，其访问的都是同一个数据，那么这个层次就是该 PE 的PoU。假设一个 4核cpu，每个 CPU核都有自己的 L1 cache，所有的 CPU 核共享 L2 cache。在该系统中，PoU 就是L2 cache。只有在该层次上，PE 的 L1 cache 和 TLB硬件单元访问内存的时候，每个存储层次的数据是相同的。按照笔者理解，在只有2个存储层次的系统中，PoU就是L2 cache。

Point of coherency(PoC)：PoC 和 PoU 的类似。但 PoC 是以系统中所有的 agent(包括CPU、DMA engine等能够访问内存的硬件单元)为视角，这些 agents 在访问内存时，直到某个存储层次上，看到的都是同一个数据，该层级即为 PoC。例如一个 4核cpu，如果系统中的 DMA controller 和内存通过总线连接起来。在这样的一个系统中，PoC 就是内存这个存储层次，因为 DMA controller 不通过 cache 来访问内存。因此只能够在内存上才能看到同一个数据。DMA 访问内存也需要对 cache 进行清理。因为 DMA 无法访问 cache，所以使用 DMA 时需要让 cache 中的脏数据流注到内存中，保证数据一致性

笔者也将自己在查找资料过程中涉及的其他信息也罗列出来，如下：

只有 Dache 有 PoC/PoU 的概念，Icache不涉及。使用协处理CP15 操作 cache 一般需要特权模式，在用户模式下无法操作。在内核源码 arch/arm/mm/cache-v7.S 可以查看清除cache 等操作的函数，比如 __clear_cache 函数，其用来清理cache。有关 cache操作的汇编指令可以在《Cortex-A7 MPCore Technical Reference Manual》中找到，参考链接

《ARM嵌入式系统开发》《Cortex-A7 MPCore Technical Reference Manual》《ARM Cortex-A Series Programmer’s Guide》《ARM Architecture Reference Manual》为打开MMU而进行的CPU初始化什么是PoU和PoC？ Cache 为什么是物理地址映射？及与TLB的关系？ ARMv8之Observability 物理CPU CPU核数逻辑CPU 几核几线程的概念详解 PoU and PoC in cache maintenance operations in arm

【本文地址】

公司简介

联系我们